Positional Encodings
それまではトークン列の位置情報は、モデルの機構で表現されていた
RNNならトークン列を順番に入れる
CNNなら、折りたたみ層で周辺の画素を接続されていた
入力自体に位置情報を埋め込めばいいんじゃね?っていうのがPositional Encodingsのアイデア
ただしただ単に先頭からn番目という数字を付け足すとかではなく、
回転する単位ベクトルを埋め込むと言った計算しやすい工夫は施される
https://gyazo.com/6b9ae835f6f169ac67e992cef37b9f53
Transformerでは、Input EmbeddingとPositional Encodingは単純に足し算で混ぜられる